#aprendizaje por refuerzo parcialmente observable